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摘要 : [目的 /意义 ] 随 着 大 语言 模型 的 快速 崛起 ，AIGC 在 我 们 日 常生 活 中 无 处 不 
在 。 为 防止 AIGC 滥用 ,减少 虚假 消息 、 学 术 不 端 、 欺 骗 评论 等 问题 的 产生 ， 对 
自然 语言 处 理 技术 赋 能 AIGC 识别 研究 进展 进行 归纳 与 展望 。[ 方 法 /过 程 ] 首 先 ， 
明确 AIGC 识别 是 二 值 分 类 问题 , 其 目标 是 识别 一 段 内 容 是 否 是 由 人 工 智能 生成 。 
然后 , 采用 系统 综述 方法 梳理 了 AIGC 识别 领域 的 主要 研究 成 果 。[ 结 果 / 结 论 ] 研 
究 发 现 全 面 的 优秀 数据 集 对 构建 AIGC 识别 分 类 器 的 重要 性 ， 同 时 探究 了 当前 流 
行 数据 集 的 局 限 性 和 发 展 目 标 ， 以 及 潜在 的 数据 集 。 此 外 ,论文 分 析 了 各 种 分 类 
器 的 范式 , 提出 了 多 领域 的 识别 任务 、 跨 语言 的 识别 任务 、 数 据 歧义 问题 等 多 方 
面 的 挑战 ， 总 结 了 未 来 AIGC 识别 的 发 展 路 径 。 由 在 为 相关 科研 人 员 提 供 清 晰 的 
介绍 ， 为 构建 更 加 稳定 高 效 的 分 类 器 提出 建设 性 意见 。 
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生成 式 人 工 智 能 的 快速 发 展 , 尤其 是 大 语言 模型 的 出 现 ,为 文本 生成 技术 开 
辟 了 前 所 未 有 的 新 天 地 。0penAI 公司 推出 的 ChatGPT 作为 领域 内 的 里 程 碑 式 作 
品 , 在 许多 专业 工作 流程 中 发 挥 了 重要 的 作用 , 在 故事 生成 "广告 标语 生成 、 
新 闻 组 成 *、 聊 天 对 话 生 成 、 代 码 生 成 “和 放射 学 报告 生成 "等 方面 表现 出 了 卓 
越 的 性 能 。 同时 ,大 语言 模型 凭借 着 其 优秀 的 语义 理解 能 力 , 在 教育 、 医 疗 保健 、 
人 商业 、 制 造 业 等 领域 扮演 了 关键 的 角色 ， 在 提升 工作 效率 、 推 动 创新 、 促 进 跨 文 
化 交流 等 方面 具有 积极 的 影响 。 

由 于 大 语言 模型 具有 强大 的 文本 生成 能 力 , 个 人 往往 无 法 有 效 识 别人 工 智 能 
生成 内 容 和 人 类 生成 内 容 , 产生 了 许多 伦理 、 社 会 和 认识 论 方面 的 窒 境 。 长 期 研 
究 网 络 虚 假 有 害 信息 的 互联 网 公司 NewsGuard 联合 CEO 坦言 : ChatGPT 将 成 为 互 
联网 上 最 强 有 力 的 散播 虚假 信息 的 工具 ”。“AI 教父 ”、 图 灵 奖 获得 者 辛 顿 更 是 
发 出 了 警告 : 生成 式 人 工 智 能 正在 制造 大 量 虚假 的 文本 、 网 片 和 影像 ……: BLA 
及 时 准备 好 相关 法 规 和 有 效 控制 手段 ， 人 类 在 未 来 将 对 AT fd . DÀ 
上 言论 并 非 危 言 务 听 , 多 位 科学 家 呼吁 人 工 智 能 实验 室 停止 训练 更 加 强大 的 人 工 
智能 系统 "”。 学 术 界 也 逐渐 重视 AIGC CAI-Generated Content， 人 工 智 能 生成 
AA) 引发 的 问题 ， 主 要 集中 在 两 个 方面 。 第 一 ，AIGC 容易 受到 捏造 信息 、 过 
时 信息 以 及 提示 关键 词 的 影响 ， 这 引发 了 错误 信息 ””、 学 术 不 端 ”、 钒 鱼 邮 件 
“等 问题 ， 阻 碍 了 AIGC 在 媒体 和 教育 领域 的 发 展 。 第 二 ， 人 为 恶意 使 用 大 语言 
模型 ， 以 极 低 的 成 本 促进 了 虚假 信息 传播 "”、 网 络 欺 骗 “和 政治 宣传 ”。 经 过 行 
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为 人 有 意 的 训练 和 提示 后 ， 生 成 式 人 工 智 能 可 以 输出 虚假 有 害 的 信息 。AIGC 的 
滥用 ,对 信息 生态 环境 造成 了 不 良 的 影响 ”， 针 对 这 一 问题 , 一 种 方式 是 通过 人 
类 的 专业 知识 判断 当前 文本 是 否 为 AIGC。 但 是 ， 人 工 识别 效果 不 佳人 ”， 其 准确 
率 非 常 低 ， 近 乎 等 于 随机 分 类 的 值 。 第 二 种 方式 是 通过 白 盒 检 测 的 方法 ， 白 盒 检 
测 通 常 是 由 人 工 智能 的 开发 人 员 创 建 分 类 器 ， 它 可 以 随时 访问 大 语言 生成 模型 ， 
给 AIGC 打上 标签 ,保证 AIGC 的 可 追溯 性 。 第 三 种 是 通过 黑 盒 检测 的 方法 ,利用 
人 类 生成 文本 和 AIGC 来 训练 分 类 器 ， 与 白 盒 检测 相 比 有 较 高 的 稳定 性 ， 同 时 比 
人 工 识 别 的 效率 及 准确 率 提高 了 20%-40%。 因 此 ， 开 发 强大 可 靠 的 分 类 器 来 高 效 
识别 AIGC， 降 低 生 成 式 人 工 智 能 的 滥用 以 及 治理 信息 环境 中 的 AT 污染 至 关 重 要 
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以 上 问题 最 常见 的 解决 方法 是 将 人 类 文本 与 AIGC 视 为 一 个 二 分 类 问题 ， 对 
此 ， 自 然 语言 处 理 领 域 做 了 一 系列 的 努力 。 黑 盒 检测 和 和 白 盒 检测 是 其 中 主流 的 方 
法 ， 但 是 ，AIGC 识别 是 涉及 计算 机 科学 、 语 言 学 、 信 息 资 源 管 理 等 多 个 领域 的 
跨 学 科 问 题 。 现 有 的 综述 研究 主要 是 针对 当时 新 发 布 的 几 个 对 话 生成 模型 的 检测 
算法 进行 了 梳理 和 分 析 "， 其 对 检测 方法 的 综述 深度 不 足 。 同时 也 鲜 有 研究 从 自 
然 语 言 处 理 视角 出 发 ， 对 AIGC 识别 的 研究 进展 进行 综述 。 

本 文系 统 综述 了 自然 语言 处 理 在 AIGC 识别 问题 上 的 相关 研究 ， 则 在 帮助 相 
关 学 者 应 对 未 来 出 现 的 问题 和 挑战 。 本 文 试图 解决 以 下 研究 问题 : 

1. 介绍 AIGC 识别 的 任务 , 以 及 自然 语言 处 理 赋 能 下 的 AIGC 识别 研究 热点 聚 
焦 在 哪 几 个 方面 ? 

2. 目前 研究 中 所 使 用 的 数据 集 是 否 足 够 全 面 ? 存在 的 问题 有 哪些 ? 

3. 识别 AIGC 的 分 类 器 是 如 何 发 展 的 ? 各 种 类 型 分 类 器 的 局 限 性 ? 

4. 目前 AIGC 识别 面临 的 挑战 有 哪些 ?如 何 应 对 这 些 挑战 ? 

1. 方法 论 /Methodology 
1. 1 研究 方法 

随 着 科学 文章 的 不 断 增长 , 通过 系统 化 的 循 证 科学 方法 论 对 海量 研究 成 果 进 
行 总 结 概括 的 综述 类 文献 越 来 越 多 ,综述 文章 的 迅速 增长 促进 了 综述 方法 的 发 
FRE, 这些 方法 的 名 称 虽 各 不 相同 , 但 是 都 根据 其 需求 解决 某 些 特定 的 问题 ， 见 表 
1。 例 如 ， 文 献计 量 方法 得 出 的 结论 可 以 帮助 研究 人 员 在 海量 文献 中 筛选 出 有 价 
值 的 资源 ， 了 解 某 个 学 术 领 域 的 研究 热点 、 学 术 影 响 力 和 学 者 的 贡献 ， 帮 助 学 者 
评估 学 术 成 果 的 质量 和 影响 ”; 元 分 析 则 是 聚焦 于 不 同 的 定量 研究 结果 ,经 过 权 
衡 和 比较 , 确定 在 同一 主题 下 的 多 个 研究 中 出 现 的 范式 、 分 歧 或 者 关联 ; 扎根 
综述 是 对 茶 个 主题 进行 深入 分 析 和 解读 ， 强 调整 个 综述 过 程 中 的 不 断 欠 代 , 直至 
主题 或 理论 的 提出 达到 饱和 ; 质 性 系统 评价 通过 系统 地 收集 、 评 估 和 合成 质 性 研 
究 的 结果 , 提供 对 特定 主题 或 现象 的 深入 理解 。 系 统 综 述 法 则 是 围绕 更 具体 的 研 
FEA, 通过 严格 的 文献 筛选 标准 ,确定 研究 主题 的 范围 和 纳入 标准 ， 更 加 适用 
于 了 解 已 有 研究 的 现状 和 进展 ， 发现 研究 中 存在 的 挑战 与 问题 。 因 此 ， 本 文选 用 
此 方法 进行 综述 。 


表 1 文献 综述 方法 总 结 


Table 1 Literature Review Methodology Summary 


综述 方法 的 聚焦 问题 特点 


来 评估 某 个 领域 的 学 术 研究 
—À 水 平 、 学 术 影响 力 以 及 学 术 对 后 续 研 究 的 范围 界定 
趋势 等 信息 


具有 丰富 可 视 化 功能 的 计量 软 
件 


通过 系统 性 的 分 析 , 重新 评估 定 


元 分 析 四 对 研究 结果 的 整合 与 比较 。 整合 不 同 研究 的 数据 
量 结果 
g 批判 性 地 评论 和 整合 现 有 ”整合 同一 主题 的 定量 和 定性 研 
ERRAN” 整合 多 项 异 质 研究 l 
研究 文献 究 
深入 挖掘 问题 、 现 象 或 领域 7 通过 上 升 归纳 和 理论 饱和 来 生 
扎根 综述 法 系统 而 严格 的 概括 过 程 
的 内 在 本 质 和 规律 性 成 新 的 理论 或 拓展 现 有 理论 
"T n 揭示 该 领域 的 研究 重点 和 根据 具体 研究 问题 制定 相应 的 
系统 综述 法 外 对 研究 结果 进行 提炼 和 比较 


挑战 具体 标准 


系统 综述 方法 收集 和 分 析 相 关 研 究 的 论文 数据 …， 进 行 识别 和 批判 性 评估 。 
该 方法 在 收集 文章 和 研究 证 据 时 ,使 用 系统 、 明 确 的 方法 ,很 大 程度 上 减少 了 偏 
见 因素 的 干扰 ”。 其 过 程 严谨、 目的 明确 、 可 重复 性 强 等 特点 ， 逐 渐 受 到 AT 文 
献 综 述 领域 的 重视 。 本 文 使 用 系统 综述 法 的 流程 如 下 : 也 定义 与 检索 。 对 研究 问 
题 进行 定义 与 含义 表述 、 确 定 文 献 来 源 。@ 筛 选 文献 。 根 据 入 选 标准 进行 文献 得 
选 。@@ 记 录 信 息 。 从 选 定 的 文献 中 提取 关键 信息 ， 如 研究 设计 、 数 据 集 、 评 价 指 
标 等 。 综合 分 析 。 根 据 纳入 研究 的 特征 、 总 结 主要 发 现 、 讨 论 研究 结果 ， 并 进 
行 次 分 析 或 亚 组 分 析 ， 发 现 研究 中 存在 的 挑战 与 问题 。 
1. 2 文献 检索 

首先 ， 对 人 类 生成 内 容 HGC, Human Generated Content) 、 人 工 智 能 生成 
内 容 CAIGC) 、AIGC 识别 进行 曾 释 。 将 生成 内 容 形式 限定 于 文本 类 型 ， 中 人 类 
生成 内 容 : 人 类 创作 或 产生 的 文本 ， 这 些 内 容 可 以 是 个 人 的 作品 ， 也 可 以 是 在 社 
交 媒 体 、 论 坛 、 博 客 等 平台 上 发 布 的 用 户 生 成 内 容 。HGC 通常 反映 了 个 体 的 观点 、 
经 验 、 创 意 和 情感 等 ， 具 有 多 样 性 和 独特 性 。@AIGC: 由 计算 机 程序 或 人 工 智能 
技术 生成 的 文本 内 容 ， 通常 是 基于 机 器 学 习 、 自 然 语言 处 理 、 大 语言 模型 等 技术 
实现 的 ， 可 以 自动 从 大 量 数据 中 学 习 、 推 断 和 生成 新 的 内 容 。(B@AIGC 识别 : 其 
本 质 为 二 值 分 类 问题 ， 目 的 是 识别 给 出 的 文本 内 容 是 否 由 人 工 智 能 生成 ， 其 数学 
表达 式 为 : 


1 if x is AIGC 
NENG if x is HGC 
(1) 
其 中 ，Y(x) 是 分 类 器 ，x 是 需要 识别 的 文本 。 
KER, WERE, EF AIGC 识别 的 研究 主题 进行 概述 ， 保 证 查 全 率 的 基 
础 上 拥有 较 高 的 查 准 率 。 制 定 检 索 词 时 ,依据 相关 综述 文章 收集 到 合适 的 关键 词 ， 
进行 组 合 检索 ， 并 以 相关 综述 文献 的 检索 结果 作为 参考 , 最终 选择 了 有 具备 较 高 查 
全 率 和 查 准 率 的 检索 式 : AIGC 识别 OR 机 器 生成 文本 识别 OR 大 语言 模型 生成 内 
容 识 别 OR 深度 伪造 内 容 检测 。 随 后 , 在 检索 中 , 采用 中 文 数据 库 中 国 知 网 (CNKI)、 
英文 数据 库 WoS、Google Scholar、ACL 等 , 检索 数据 库 见 表 2。 检索 时 间 为 2023 


Œ 10 H 31 H. 


表 2 检索 数据 库 
Table 2 Search Database 
数据 库 来 源 数据 类 型 数量 
CNKI Topic 38 
Google Scholar Full Tex 310 
ArXiv Full Tex 539 
WOS Topic 500 
IEEE Xplore Full Tex 836 
Springer Link Full Tex 19 
ACL Full Tex N 
ik: 在 ACL 数据 库 中 不 能 使 用 所 有 检索 词 进行 组 合 , 有 重复 篇 章 存 在 , 因此 检索 数量 不 准确 。 


1. 3 文献 筛选 

为 有 效 筛 选 文献 , 本 文 制定 如 下 审查 标准 : 研究 问题 与 本 文 研究 目的 有 一 
致 性 , 文献 应 该 是 关于 AIGC 识别 的 相关 方法 研究 或 者 综述 。 四 提出 一 种 识别 AIGC 
的 方法 、 模 型 。@ 文 章 应 该 针对 AIGC 的 相关 研究 指明 前 瞻 性 方向 。 只 要 文献 满 
足以 上 条 件 中 的 一 条 ， 就 将 其 收集 到 本 文 的 研究 数据 中 。 

根据 上 述 审查 标准 对 文献 进行 筛选 ,中 对 检索 到 的 文章 进行 学 科 限 定 ， 排 除 
关联 强度 低 的 学 科 〈 如 地 理 、 历 史 、 天 文 等 ) ， 尽 可 能 保留 相似 学 科 《〈 计 算 机 科 
学 、 信 息 科 学 、 信 息 管理 等 ) ， 最 终 获 得 文献 2242 He. OWIE HE, KIC 
献 进 行 剔 除 。 首 先 ， 通 过 阅读 标题 、 关 键 词 、 摘 要 来 排除 不 相关 文献 ， 最 后 根据 
全 文 内 容 确定 是 否 选 入 文献 集合 ， 最 终 选 择 了 65 篇 文献 。@ 分 析 入 选 文献 的 参 
考 文献 ， 通 过 反 向 检索 ， 对 文献 集合 进行 补充 ， 获 得 最 终 文献 集合 71 篇 。 
2. 结果 /Result 
2. 1 数据 集 综述 

为 高 效 识 别 AIGC， 学 术 界 通过 分 类 算法 构建 高 效 的 分 类 器 ， 提 取 数 据 中 的 
有 效 信息 ， 机 器 学 习 、 深 度 学 习 成 为 解决 该 问题 的 关键 技术 。 高 质量 数据 集 是 训 
练 良好 的 机 器 学 习 和 深度 学 习 模 型 的 关键 , 这 些 模型 需要 大 量 的 标记 数据 来 学 习 
并 理解 AIGC 的 特征 和 模式 。 丰 富 而 有 代表 性 的 数据 集 能 够 提供 多 样 化 的 样本 ， 
帮助 模型 更 全 面 地 学 习 并 准确 识别 AIGC。 本 节 综 述 了 识别 AIGC 任务 的 主流 数 志 
集 ， 有 助 于 研究 人 员 了 解 目前 可 用 的 数据 集 ， 包 括 其 特征 、 规 模 、 质 量 以 及 针对 
AIGC 识别 的 有 效 性 。 同 时 ， 针 对 现 有 数据 集 的 不 足 ， 介 绍 了 未 来 可 能 会 使 用 到 
的 数据 集 ， 提 供 制定 更 完善 和 全 面 的 数据 集 标准 ， 推 动 AIGC 识别 技术 的 发 展 ， 
从 而 更 好 地 应 对 海量 的 AIGC 所 带 来 的 挑战 。 

当下 研究 中 最 流行 的 数据 集 如 表 3 所 示 ， 作 为 AIGC 识别 任务 的 数据 来 源 ， 
这 些 数据 集 经 常 被 用 来 测试 相关 算法 的 效率 。 未 来 研究 中 的 潜在 数据 集 如 表 4 
所 示 ， 这 些 数据 集 为 跨 场 景 下 的 AIGC 识别 任务 提供 了 良好 的 数据 来 源 。 

表 3 主流 数据 集 相关 参数 描述 


Table 3 Mainstream Data Set Related Parameter Description 


人 类 生成 m 
数据 集 AIGC 生成 式 人 工 智能 类 型 语言 文本 领域 
文本 
. 放 领 域 、 计 算 机 、 金 融 、 医 学 、 法 律 、 心 
HC3B2 58k 26k ChatGPT 英文 


理学 和 许多 其 他 领域 


提供 人 类 和 人 工 智能 的 中 文 回复 ， 为 对 话 系 
统 研究 提供 可 比较 的 语料库 


五 


HC3-ChineseP?! 22k 17k ChatGPT 中 文 


ChatGPT 编写 的 大 规模 特征 数据 外 
CHEAT’?! 15k 35k ChatGPT 英文 包含 35, 304 条 合成 摘要 、 于 支持 检测 


算法 的 开发 。 


mt 
» 


该 数据 集 是 利用 澳大利亚 广播 公司 的 头条 
新 闻 和 模型 生成 的 头条 新 闻 创 建 的 ， 并 在 头 
CAPTIONP4 252.3k 932.3k GPT-2 英文 
条 新 闻 数 据 上 对 预先 训练 好 的 GPT-2 模型 
进行 了 微调 。 


该 数据 集 包 含 100 万 对 话 ， 主 于 训练 对 


15k 10k Grover-Mega 英文 话机 器 人 以 提高 其 对 话 能 力 和 自然 语言 文 
本 的 生成 能 


GROVER 


DatasetP?l 


数据 集 包含 真实 新 闻 文章 和 假 新 闻 文 章 ， 并 


GPT-2, RNN, Markov, 


使 用 许多 不 同 的 方法 构建 ， 包 括 基 于 语言 建 
TweepFakeB9 12k 12k LSTM, 英文 
模 的 方法 、 基 于 机 器 学 习 的 方法 和 基于 深度 
CharRNN 
学 习 的 方法 。 


包含 250K 来 自 WebText 测试 集 的 文档 ， 每 


GPT-2 Output 个 GPT-2 模型 (在 WebText 训练 集中 训练 ) 
250k 250k GPT-2 英文 . ] 
DataseB7] 有 相应 的 250K 随机 样本 (温度 1, 没有 截断 ) 
和 使 用 Top-K 40 截断 生成 的 250K 样本 。 
GPT-1, GPT-2, GPT-3, 
GROVER, 它 包含 多 个 任务 的 数据 集 ， 包括 图 像 分 类 、 
CTRL, XLM, XLNET, 文本 生成 、 语 音 识 别 等 。 每 个 任务 都 有 一 个 
TuringBenchb?! 10k 190k 英文 . 
FAIR, 相应 的 数据 集 ， 用 于 评估 AI 模型 在 该 任务 
TRANSFORMER XL, 上 的 性 能 。 


PPLM 


MGTBenchP?! 


ArguGPT^! 


DeepfakeText-Dete 
ct- 


Dataset!!! 


MAE? 


GPABenchmarkl?! 


Scientific-articles4l 


RCDatase!^! 


432.6k 


123k 


600k 


12k 


20k 


13k 


3.7k 


123k 


600k 


12k 


15.8k 


ChatGPT, 


ChatGPT-turbo, Chat- 


GLM, Dolly, GPTAAII, 


StableLM 


GPT2-xl, 
Text-babbage-001, 
Text-curie-001, 
Text-davinci-001, 
Text-davinci-002, 
Text-davinci- 


003, GPT-3.5-turbo 


GPT, LLaMA, 
GLM-130B, FLAN- 


T5, OPT, TO, BLOOM 


ChatGPT, 
Textdavinci-003, 
LLaMa, FlanT5, 
Cohere, Dolly-v2, 


BLOOMz 


GPT-3.5 


SCI gen, GPT-2, 
GPT-3, ChatGPT, 


Galactica 


ChatGPT 


英文 


英文 


英文 

中 文 fR 
文 印 
尼 语 、 阿 
拉 伯 语 


中 文 


包含 几 种 不 同类 型 的 数据 集 ， 涵 盖 了 广泛 的 
任务 ， 如 文本 分 类 、 语 言 翻译 和 文本 生成 。 
这 使 得 评估 大 型 语言 模型 在 不 同 任务 上 的 


t 


该 语料库 在 4038 篇 议论 文中 ， 有 了 个 GPT 

模型 根据 了 三 个 来 源 的 论文 提示 生成 : (1) 

课堂 或 家 庭 作 业 ，(2) 托福 和 (3) GRE 写作 任 
务 。 


t 


通过 收集 从 各 种 人 类 著作 中 提取 的 文本 和 
不 同 的 大 型 语言 模型 产生 的 深度 伪造 文 
本 组 成 


种 用 于 机 器 生成 文本 检测 的 
多 生成 器 、 多 域 、 多 语言 的 语料库 。 


这 是 一 个 基准 数据 集 包 含 60 万 篇 手写 、gpt 
编写 、gpt 完成 和 gpt 润色 的 计算 机 科学 、 
物理 、 人 文 和 社会 科学 研究 论文 摘要 的 样 
本 。 


此 数据 集 包含 来 
ChatGPT 和 Caladicga 的 人 类 撰写 和 机 器 生 
成 的 科学 论文 


SCIgen、GPT-2、GPT-3、 


人 工 智能 生成 的 内 容 数据 通过 输入 不 同 的 
提示 到 ChatGPT 中 获得 ， 其 中 一 部 分 通过 从 
中 


ant 


THUCNews, WebQA 和 Moviedata 等 数据 身 
选择 作为 人 工 生 成 的 内 容 数据 4 


purs 
o 


在 百度 问答 、 百 度 贴吧 、 新 浪 微 博 上 获取 人 
工 问 答 ， 将 答案 作为 人 工 回 答 数据 ， 然 后 将 
HAC“ 52k 48.9k ChatGPT 中 文 问题 输入 ChatGPT， 让 其 模拟 人 工 回 答 作为 


人 工 智 能 回答 数据 ， 然 后 筛选 出 人 工 智 能 生 


成 内 容 。 


潜在 数据 集中 分 为 问答 类 、 新 闻 类 、 学 术 论 文 类 、 社 交 媒 体 数 据 等 四 类 。 

问答 类 数据 集 包 含 了 大 量 的 问题 和 答案 ， 可 以 用 于 训练 模型 ， 使 其 能 够 完成 
识别 HGC 和 AIGC 的 任务 。 如 表 4 所 示 ， 这 些 数据 集中 的 问答 涵盖 了 各 种 主题 和 
领域 , 可 以 帮助 模型 学 习 各 种 知识 和 技能 ， 从 而 更 好 地 理解 人 类 语言 和 机 器 生成 
内 容 的 异同 。 

新 闻 数 据 集 通常 包含 各 种 语言 风格 和 表达 方式 , 涵盖 了 丰富 多 样 的 内 容 ， 从 
政治 、 科 技 到 娱乐 等 不 同 主题 领域 。 这 一 多 样 性 有 助 于 训练 模型 更 好 地 理解 和 生 
成 各 种 类 型 的 内 容 ， 并 提高 对 真实 信息 的 识别 能 力 。 相 关 学 者 偏爱 将 新 闻 标 题 输 
入 到 大 语言 模型 中 生成 摘要 , 或 者 将 摘要 输入 到 大 语言 模型 中 让 其 生成 标题 ,再 
将 AIGC 与 HGC 进行 对 比分 析 。 

生成 式 人 工 智能 广泛 应 用 在 学 术 写 作 中 ,给 大 语言 模型 一 个 特定 的 学 术 主 
题 , 它 可 以 高 效 的 生成 一 篇 论文 或 一 段 摘 要 ， 这些 数据 集 为 识别 论文 是 否 由 人 工 
智能 生成 提供 了 支持 。 

社交 媒体 用 户 发 布 了 大 量 的 文本 内 容 ， 包 括 短文 、 评 论 和 帖子 等 。 这些 数据 
可 以 用 于 训练 大 语言 模型 ,以 生成 类 似 的 文本 。 通常 为 生成 式 人 工 智 能 提供 一 人 
开始 句 , 允许 它们 继续 生成 相关 内 容 , 或 者 根据 社交 媒体 上 的 标题 生成 相应 文本 。 

4 潜在 数据 集 相关 参数 描述 


Table 4 Description of Relevant Parameters of Potential Data Sets 


数据 集 大 小 文本 来 源 语言 领域 
ELISC7 556k Reddit 英文 新 闻 文 章 、 维 基 百 科 页 面 、 问 题 回答 
NarrativeQA ^8 1.4k 网 页 英文 小 说 、 电 影 剧 本 、 问 题 回答 
百度 知道 问答 数据 集 “ 100k 百度 知道 中 文 科技 、 生 活 、 娱 乐 、 健 康 等 
34.3 
知 乎 问答 5 知 乎 中 文 健康 和 医学 、 生 命 科 学 、 地 球 科学 等 问答 
k 
PubMedQAG0 211k PubMed 英文 生物 医学 问答 
Extreme Summarization 新 闻 、 政 治 、 体 育 、 健 康 、 家 庭 、 教 育 、 娱 乐 等 
225k BBC 英文 
(XSum?l 多 个 领域 
THUCNews!*?! 740k 新 浪 新 闻 中 文 财经 、 彩 票 、 房 产 、 股 票 等 多 个 领域 
2910 
SogouCSP4l 搜狗 新 闻 中 文 体育 、 金 融 、 娱 乐 、 汽 车 、 技 术 等 多 个 领域 
k 


14.7 NIPS,CoNLL,ACL,ICLR,a 


PeerReadb6l 英文 ”论文 草稿 和 一 些 顶 级 会 议 接 受 或 拒绝 的 科学 论文 
K rXiv 
2300 
ArXiv67] ArXiv 英文 物理 学 、 数 学 、 计 算 机 科学 与 生物 学 等 学 科 论 文 
k 
Chinaxiv68] 38k Chinaxiv 中 文 涵 善 物理、 天文、 生物、 图 书 情 报 等 学 科 论文 


WebText!™! 45m 网 页 英文 抓 取 网 页 数据 ， 并 把 其 他 数据 集 的 通用 数据 源 删 


除 


Avax Tweets Datasetl9?l HERE 英文 新 冠 肺炎 帖子 
m 
IMDB Dataset 50k 电影 数据 英文 电影 评论 
Yelplé!! 700k Yelp 英文 企业 评论 


2. 2 分 类 器 综述 

本 部 分 介绍 自然 语言 处 理 技术 如 何 赋 能 AIGC 识别 。 主 要 分 为 两 类 方法 ， 一 
类 是 白 盒 检测 中 的 水 印 技术 ; 另 一 类 是 黑 盒 检测 方法 中 的 零 样本 分 类 器 、 微 调 
LMs (Language Models) 分 类 器 、LLMs (Large Language Models) 作为 分 类 器 
的 方法 ， 各 种 方法 的 原理 流程 图 如 图 1 所 示 。 
2.2.1 白 盒 检 测 

在 白 盒 检 测 中 ,分 类 器 会 将 隐藏 的 水 印 添加 到 大 语言 模型 生成 的 内 容 中 , 为 
后 续 的 追踪 工作 提供 监察 ,防止 其 进行 危害 社会 的 活动 。 白 盒 方法 最 早出 现在 计 
算 机 视觉 领域 的 生成 模型 的 开发 ， 现 已 加 入 AIGC 检测 的 行列 ， 其 优点 在 于 能 够 
保护 AIGC 的 版 权 、 确 认 生 成 内 容 是 否 被 算 改 或 修改 并 且 能 够 追踪 到 内 容 的 来 源 ， 
抵抗 攻击 性 较 强 ， 同 时 优秀 的 水 印 技术 可 以 在 不 影响 原始 内 容 质量 的 情况 下 ， 芯 
入 隐蔽 的 水 印信 息 。 
(OD 统计 分 析 方 法 

这 类 方法 通过 对 水 印 文 本 和 非 水 印 文本 之 间 的 输出 标记 进行 统计 分 布 分 析 ， 
寻找 其 输出 标记 与 逻辑 统计 上 的 差异 ,从 而 推断 文本 中 可 能 存在 的 水 印 。 依靠 统 
计 学 原理 和 数学 模型 , 解释 差异 是 如 何 反 映 水 印 存 在 的 可 能 性 , 使 检测 者 能 够 理 
解 检 测 结果 的 依据 。John Kirchenbauer 等 ”提出 了 一 种 针对 大 语言 模型 的 专 有 
水 印 框架 ， 该 框架 可 以 嵌入 水 印 ， 同 时 对 文本 质量 的 影响 可 以 忽略 不 计 ， 并 且 可 
以 使 用 高 效 的 开源 算法 来 检测 ， 而 无 需 访 问 语言 API 模型 或 参数 。 其 原理 在 于 ， 
生成 单词 之 前 选择 一 组 随机 的 “绿色 ”标记 ， 这 意味 着 其 它 的 标记 为 “红色 ”， 
然后 在 采样 期 间 温 和 地 促进 绿色 标记 的 使 用 。 该 研究 还 加 入 了 基于 P 值 的 可 解释 
性 模块 , 在 最 后 分 类 阶段 可 以 将 绿色 标记 和 红色 标记 进行 统计 , 计算 P 值 然后 确 
定 生成 的 水 印 。 最 近 的 一 项 工作 中 ”， 引 入 了 “WinMax” 的 窗口 测试 ， 探讨 了 水 
印 文 本 在 人 类 重 写 、 使 用 非 水 印 AIGC 的 转述 或 混合 到 更 长 的 手写 文档 中 后 的 稳 
健 性 。 该 研究 主张 将 水 印 可 靠 性 作为 文本 长 度 的 函数 ， 同 时 发 现 即 使 是 人 类 作者 
也 不 能 可 靠 地 去 除 水 印 ， 说 明了 水 印 方法 的 可 行 性 。 
(2) 密 钥 的 水 印 技术 

Zhao 等 人 “提出 了 抗 燕 饮水 印 (distill- resistant Watermarking, DRW) 
方法 ,将 水 印 能 入 到 模型 产生 的 预测 概率 向 量 中 。 该 嵌入 与 密 钥 相对 应 ， 可 以 保 
护 模 型 并 且 通 过 探测 可 疑 模 型 来 检测 密 钥 信 息 。 后 者 有 助 于 确定 可 疑 的 模型 是 否 
从 受 保护 的 模型 中 提取 出 来 。DRW 方法 的 使 用 有 效 保护 了 NLP 模型 免 受 未 经 授权 
的 蒸馏 ， 同 时 保持 了 它们 的 准确 性 和 完整 性 。 因 此 ，DRW 提供 了 一 个 强 有 力 的 机 
制 来 保护 包含 在 精心 训练 的 NLP 模型 中 的 知识 产权 , B; AETEH CE B] t RH] Liu 
等 人 “提出 了 第 一 个 私有 水 印 算 法 , 创新 性 地 使 用 两 个 不 同 的 神经 网 络 进行 水 印 
生成 和 检测 ， 而 不 是 在 两 个 阶段 都 使 用 相同 的 密 钥 。 同 时 ， 令 牌 坐 入 参数 在 生成 
和 检测 网 络 之 间 共 享 , 有 效 提高 了 精准 度 且 对 生成 和 检测 过 程 的 速度 影响 都 很 小 。 
2.2.2 黑 盒 检测 
黑 盒 检测 方法 仅 限 于 对 LLMs 的 API 级 访问 。 它 通过 从 人 类 和 机 器 来 源 收集 


文本 样本 以 训练 分 类 模型 , 该 模型 可 用 于 区 分 ChatGPT 生成 的 文本 和 人 类 生成 的 
文本 。 比 如 ，Dugan 等 人 “通过 人 工 方式 构建 数据 集 ， 用 以 评估 自然 语言 生成 系 
统 的 质量 ,衡量 人 们 对 生成 文本 的 感知 。 此 外 ，Guo 等 人 “通过 整合 维基 百科 等 
现 有 的 问答 数据 集 ， 通 过 预 训练 模型 微调 ， 研 究 了 人 类 文本 与 AI 文本 的 各 自 特 
点 以 及 相似 度 。 黑 盒 检测 一 般 由 外 部 实体 构造 ， 不 需要 了 解 其 具体 的 工作 机 制 。 
这 使 得 检测 方法 更 具 通用 性 和 适用 性 ,即使 在 无 法 获取 模型 细节 的 情况 下 ,， 也 能 
进行 有 效 的 检测 。 
(1) Zero-shot Methods 

该 方法 与 水 印 方法 不 同 ， 它 可 以 通过 分 析 文 本 的 特征 和 统计 数据 进行 分 类 ， 
Simon Corston-Oliver 等 ”是 最 早 开 创 零 样本 检测 研究 的 学 者 ， 他 们 提出 了 一 
种 机 器 学 习 方 法 来 评估 文本 是 否 是 机 器 翻译 系统 输出 的 , 基于 语言 特征 的 分 类 器 
来 识别 人 类 翻译 和 机 器 翻译 的 文本 ， 这 些 语言 特征 例如 分 文 属性 、 虚 词 密度 和 组 
成 部 分 长 度 是 区 分 这 两 类 文本 的 关键 因素 。 还 有 学 者 使 用 频率 统计 的 方法 完成 类 
似 的 任务 ，Leonid A 等 “学 者 通过 词 频 统计 机 制 ， 来 识别 文本 是 否 自动 生成 。 
Yuki Arase 等 ”专注 于 在 现 有 自动 检测 统计 机 器 翻译 〈SMT) 结果 中 观察 到 的 短 
语 沙拉 现象 , 提出 了 一 组 计算 简便 的 特征 来 有 效 地 从 大 规模 Web 挖掘 文本 中 检测 
机 器 翻译 的 句子 。Perplexity 的 方法 是 基于 传统 的 n-gram 语言 模型 ”， 通 过 困 
惑 度 来 评估 语言 模型 识别 文本 的 熟练 程度 , 使 用 SRILM 工具 包 来 计算 困惑 度 的 值 
"最近 广泛 流传 的 GPTzero 基于 对 文本 的 困惑 度 和 突 发 性 度量 进行 了 深入 研究 ， 
在 识别 AIGC 方面 效果 较 好 "”。 焙 也 是 一 种 早期 的 Zero-shot Methods， 通 过 
Kullback-Leibler (KL) 散 度 对 n-gram 进行 评分 ， 考 虑 了 单词 之 间 的 距离 信息 ， 
有 助 于 虚假 内 容 的 识别 ”。 同 时 ， 基 于 Log Rank 的 方法 也 不 断 浮 出 水 面 ， 利 用 
大 语言 模型 来 分 析 文 本 中 的 单词 排名 , 通过 比较 文本 中 词汇 使 用 分 布 情况 和 大 语 
言 模型 中 词汇 使 用 分 布 情况 , 判断 文本 由 大 语言 模型 生成 的 概率 。GLTR ”基于 以 
上 原理 设计 而 成 , 将 对 比 过 程 进行 了 可 视 化 , 根据 单词 的 不 同 频 率 进行 不 同 颜色 
的 标记 ， 通 过 鲜明 的 颜色 突出 大 语言 模型 在 生成 文本 时 倾向 输出 单词 的 概率 。 
DetectLLM EX Zero-shot Methods 中 最 先进 的 分 类 器 , 在 GLTR 的 基础 上 引入 
J LRR CLog-Likelihood Log-Rank Ratio) ， 使 得 该 分 类 器 显著 提高 了 效能 。 
但 是 DetectLLM 方法 的 鲁 棱 性 较 差 , 如 果 对 经 过 审查 的 文本 进行 扰动 的 过 程 中 无 
法 保持 语义 相似 度 ， 分 类 器 的 性 能 会 出 现 大 幅度 下 降 。 同 时 ， 因 其 需要 对 多 个 扰 
动 进 行 评 分 , 评估 过 程 花费 时 间 成 本 过 高 ， 这 也 是 制约 DetectLLM 发 展 的 一 个 重 
要 原因 。 为 了 减少 时 间 成 本 ， 有 学 者 使 用 贝 叶 斯 代理 模型 对 评分 过 程 进行 了 改进 
"， 通 过 选取 少量 典型 样本 进行 评分 ,然后 将 分 数 插入 到 其 它 样 本 中 提高 查询 效 
率 , 在 保持 性 能 的 同时 降低 了 一 半 的 时 间 成 本 。 也 有 学 者 为 减少 DetectGPT 密集 
的 计算 成 本 带 来 的 损失 ， 引 入 了 条 件 概 率 曲率 ， 提 出 了 Fast-DetectGPT™, H 
精度 提高 了 大 约 75%， 检 测 效率 提高 了 340 fi. 

(2) Fine-tuning LMs Methods 

通过 微调 基于 transformer 的 生成 式 人 工 智能 ,来 区 分 由 人 工 智 能 生成 的 文 
本 和 非 人 工 智 能 生成 的 文本 。 经 过 训练 后 的 模型 在 自然 语言 理解 方面 有 了 非常 大 
的 提升 ,而 模型 的 自然 语言 理解 能 力 对 文本 分 类 任务 极其 重要 。 一 些 优秀 的 预 
训练 模型 ， 例 如 BERT". Roberta "H0 XLNet ", fE GLUE 基准 中 应 用 于 文本 分 类 
任务 时 , 在 传统 的 统计 机 器 学 习 和 深度 学 习 方 面 表现 出 了 优 于 同类 模型 的 性 能 ” 。 
同时 ， 大 量 研究 已 经 证 明 Fine-tuning LMs Methods 在 AIGC 识别 方面 具有 强大 
的 能 力 ””， 特 别 是 Roberta", d& AIGC 识别 任务 中 最 优秀 的 分 类 器 之 一 。 微 调 


的 Roberta 为 AIGC 识别 任务 提供 了 和 鲁 棒 性 较 高 的 基准 ，Fagni T 等 中 使 用 三 种 
不 同 的 方法 对 文本 内 容 进行 编码 , 最 终 发 现 微调 的 Roberta 是 分 类 效果 最 好 的 方 
i. OpenAI 公司 公布 的 分 类 器 也 采用 了 微调 Roberta MATA. Æ AIGC 识别 任 
务 方面 ， 这 些 基 于 BERT 进行 微调 的 模型 ， 与 Zero-shot 和 和 白 盒 方法 相 比 有 着 惊 
人 的 正确 率 ， 其 平均 正确 率 达 到 了 95% 以 上 。 同 时 ， 在 特定 领域 内 具备 抵抗 各 种 
攻击 技术 的 能 力 , 不 易 受到 攻击 的 影响 和 破坏 。 但 是 ， 当 数据 变 为 跨 领域 数据 集 
或 未 知 数据 时 ， 其 性 能 开始 大 幅度 下 降 , 在 识别 不 同 语言 模型 生成 的 数据 时 效果 
较 差 ”。 和 鲁 棒 性 较 差 是 Fine-tuning LMs Methods 的 通病 ”， 因 为 这 些 方法 都 过 
度 拟 合 于 所 训练 的 数据 集 ， 导 致 面 对 跨 领域 数据 集 和 未 知 数据 时 ,性 能 大 幅度 衰 
退 。 
(3) LLMs 分 类 器 

为 了 对 抗 大 语言 模型 生成 的 虚假 信息 ，Rowan Z 等 ”最 早 提出 了 LLMs 作为 
分 类 器 的 构想 ， 他 们 设计 了 一 个 文本 生成 模型 Grover 用 来 生成 文本 信息 ， 因 为 
Grover 固有 的 可 控 性 质 , 该 模型 生成 的 信息 具有 显著 的 欺诈 性 ,他 们 针对 Grover 
生成 的 信息 使 用 多 种 分 类 器 (BERTE) 进行 识别 ,发 现 最 好 的 分 类 器 的 准确 率 
为 73%。 出 人 意料 的 是 ， 抵 抗 Grover 生成 文本 的 最 好 分 类 器 是 Grover AG, A 
有 92% 的 准确 率 ， 这 也 说 明了 开发 强大 生成 器 的 重要 性 。 但 是 LLMs 分 类 器 的 可 
靠 性 是 一 直 被 怀疑 的 ， 有 学 者 对 ChatGPT 和 GPT4. 0 等 主流 的 生成 式 人 工 智能 作 
为 分 类 器 的 效果 进行 了 研究 , 发 现 这 些 LLMs 识别 AIGC 的 可 靠 性 非常 差 中 。 但 是 ， 
ChatGPT 与 GPT4. 0 有 着 完全 相反 的 表现 。ChatGPT 作为 分 类 器 识别 AIGC 的 准确 
率 不 到 50%， 这 也 说 明了 ChatGPT 无 法 在 大 量 文本 中 识别 出 ATGC; 有 趣 的 是 ， 
ChatGPT 在 识别 HGC 方面 表现 更 好 ， 并 且 倾 向 于 将 AIGC 分 类 为 人 类 生成 文本 。 
GPT4. 0 几乎 将 所 有 文本 都 归 类 于 AIGC， 这 说 明 GPT4. 0 难以 识别 HGC. Liu 55" 
测试 了 GPT3.5-Turb 分 类 器 的 效果 ， 在 zero/few-shot 背景 下 的 分 类 准确 率 均 
IRF 50%。 这 些 研 究 均 表明 LLMs 并 不 是 一 种 可 靠 的 分 类 器 ， 其 分 类 准确 度 远 低 
于 水 印 方法 和 其 它 的 黑 盒 方法 。 为 了 有 效 利 用 LLMs 的 强大 能 力 ，Yu 等 引入 了 
GPT-Pat， 缓 解 了 LLMs Methods 普遍 性 缺乏 的 劣势 和 LLMs 的 不 可 靠 性 。GPT-Pat 
对 识别 文本 的 源 问题 进行 溯源 , 然后 根据 推断 出 的 源 问题 重新 生成 文本 , 最 终 计 
算 识别 文本 与 生成 文本 的 相似 性 ， 这 为 LLMs 识别 AIGC 提供 了 新 思路 。 该 方法 
不 仅 拥 有 良好 的 分 类 效率 ， 其 鲁 棒 性 也 非常 优秀 , 对 于 改写 与 润色 的 人 工 智 能 生 
成 文本 也 有 一 定 的 抵抗 能 力 ， 其 性 能 衰退 率 仅 为 Rooberta” 的 一 半 。 但 是 ， 该 
方法 在 训练 和 识别 期 间 查 询 ChatGPT， 这 导致 用 户 需要 花费 大 量 的 时 间 成 本 ， 用 
户 体验 较 差 。 
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图 1 分 类 器 原理 流程 图 
Fig. 1 Classifier Principle Flow Chart 
2.3 评价 指标 
评价 指标 能 够 量化 模型 在 AIGC 识别 任务 中 的 表现 ， 是 任何 NLP 任务 的 必要 
组 成 部 分 。 我 们 列举 了 AIGC 识别 任务 中 常用 的 指标 ， 为 后 续 评 价 分 类 器 的 效果 
提供 了 度量 。 
AIGC 识别 任务 所 有 可 能 的 混淆 矩阵 类 型 只 有 四 种 : 
(1) 阳性 (True Positive, TP) ， 如 果 原 始 内 容 是 AI 生成 的 ， 并 且 分 类 
器 正确 地 将 其 分 成 AI 生成 文本 ， 则 分 类 器 的 响应 被 归 类 为 阳性 。 
(2) 阴性 (True Negative, TN) ， 如 果 原 始 内 容 是 人 类 生成 的 ， 并 且 分 类 
器 正确 地 将 其 分 成 人 类 生成 文本 ， 则 分 类 器 的 响应 被 归 类 为 阴性 。 
(3) 假 阳 性 (False Positive, FP) ， 如 果 原 始 内 容 是 人 类 生成 的 ， 并 且 
分 类 器 错误 地 将 其 分 成 AI 生成 文本 ， 则 分 类 器 的 响应 被 归 类 为 假 阳 性 。 
(4) 假 了 明 性 (False Negative , FN) ， 如 果 原 始 内 容 是 AT 生成 的 ， 并 且 
分 类 器 错误 地 将 其 分 成 人 类 生成 文本 ， 则 分 类 器 的 响应 被 归 类 为 假 阴 性 。 
下 列 分 类 性 能 指标 均 可 以 用 TP. TN. FP. FN 来 表示 , 包括 准确 率 (Accuracy)、 
精准 率 (Precision) 、 召 回 率 (Recall) , FI f. 
准确 率 (Accuracy) 是 一 个 通用 的 度量 值 ， 是 评估 模型 在 分 类 问题 中 整体 预 
测 正 确 的 能 力 指 标 。 准 确 率 的 计算 公式 如 下 : 
正确 分 类 数量 TP+TN 
所 有 文本 数量 TP+TN+FP+FN 
精准 率 (Precision) :评估 模型 在 预测 正 类 别 样本 中 准确 性 的 指标 。 它 衡量 
了 模型 在 预测 为 AIGC 的 样本 中 , 实际 上 有 多 少 是 真正 的 AIGC 类 别 样本 。 公式 如 
下 : 


(2) 


Accuracy = 


正确 分 类 的 AIGC 数量 TP 
所 有 检测 到 的 AIGC 数量 TP + FP 

召回 率 (Recall): 评估 模型 在 所 有 正 类 别 样本 中 成 功 预测 为 正 类 别 的 能 
指标 。 它 衡量 了 模型 识别 出 的 正 类 别 样本 占 实际 正 类 别 样本 的 比例 。 平 均 召 回 率 
(AvgRec) 是 多 类 别 分 类 问题 中 的 一 种 综合 指标 ,用 于 评估 模型 对 不 同类 别 的 召 
回 率 表现 。 在 AIGC 识别 的 任务 中 ， 主 要 分 为 HumanRec 和 AIGCRec， 分 别 表 示 分 
类 器 准确 分 类 为 人 类 生成 和 人 工 智 能 生成 的 比例 。 公 式 如 下 : 

正确 分 类 的 HGC 的 数量 


(3) 


Precision = 


HumanRecll = 一 一 一 一 一 一 一 一 一 — (4) 
所 有 HGC 的 数量 
正确 分 类 的 AIGC 数量 
AIGCRecll = EU MEE (5) 
所 有 AIGC 的 数量 
H Recll + AIGCRecll 
ios umanRec = ec (6) 


F, 值 : 一 个 综合 评估 模型 性 能 的 指标 ， 是 精确 度 和 召回 率 的 调和 平均 数 ， 同 

时 考虑 了 模型 的 精准 率 和 召回 率 。 公 式 如 下 ; 
Precision * Recall 2TP 

Fic? precision: Recall Sip EP 4 EN 
3. b ib /Discussion 
3.1 针对 数据 集 构 建 的 讨论 

fr AIGC 识别 问题 上 ， 专 门 为 解决 此 问题 所 设置 的 数据 集 面 临 着 诸多 挑战 ， 

个 明显 的 趋势 是 利用 解决 其 他 任务 的 数据 集 来 解决 AIGC 识别 问题 ， 有 的 在 此 
基础 上 添加 AIGC 作为 检测 器 的 训练 数据 。 形 成 这 种 趋势 的 原因 在 于 本 领域 内 没 
有 专门 解决 AIGC 识别 任务 的 数据 集 , 说 明 该 任务 的 基准 数据 集 不 够 全 面 、 专 业 。 
未 来 数据 集 的 构建 应 该 具有 以 下 标准 : 

全 面 性 : 一 个 合格 的 数据 集 应 包含 不 同 领 域 的 、 不 同 任务 的 、 多 语言 的 数据 
内 容 ， 这 样 才能 促进 识别 AIGC 效率 更 高 的 分 类 器 的 产生 。 配 置 不 同 领域 的 数据 
内 容 ， 对 提高 分 类 器 的 鲁 棒 性 、 可 信 度 具有 重要 意义 。 日 常识 别 任务 中 ， 分 类 器 
应 该 可 以 识别 学 术 论文 、 新 闻 标 题 、 微 博 问答 等 多 个 场景 下 的 文本 内 容 。 同 时 还 
应 配置 不 同 语言 的 数据 集 ， 为 探索 跨 语 言 分 类 器 的 发 展 提供 基础 。 在 不 同 的 语种 
下 分 类 器 可 能 会 产生 不 同 的 效果 ,这 会 制约 分 类 器 的 发 展 , 全面 的 数据 集 为 分 类 
器 的 高 速 发 展 提供 了 方向 。 男 一 方面 ， 分 类 器 会 遭遇 多 种 机 制 生成 文本 的 攻击 ， 
因此 数据 集中 还 应 该 包括 各 种 攻击 文本 (经 改写 、 润 色 、 蔡 换 同义词 处 理 过 的 文 
本 ) ， 这 有 助 于 提升 分 类 器 的 有 效 性 。 

时 效 性 : 从 上 述 数据 集 的 综述 中 可 以 看 出 ,一 些 非 常 久远 的 其 它 任务 中 的 数 
据 集 作为 AIGC 识别 的 数据 来 源 ， 这 导致 训练 分 类 器 的 数据 内 容 可 能 是 过 时 的 ， 
这 也 意味 着 经 过 训练 的 分 类 器 可 能 跟 当前 社会 中 的 内 容 脱 轨 , 导致 分 类 器 在 现实 
中 的 效果 并 不 好 。 因 此 ， 我 们 需要 建立 更 新 的 数据 集 ， 保 证 训练 分 类 器 的 数据 能 
够 与 时 俱 进 。 

多 样 性 : 大 语言 模型 的 快速 发 展 ， 其 产品 类 型 也 多 种 多 样 ， 国内 外 有 文 心 一 
Be Ae’ LaMDAU?, PaLM??, Jurassic #2 AGE SMH, HERA 
与 ChatGPT 相 比 各 有 优 劣 。 但 在 学 术 界 对 大 语言 模型 生成 文本 检测 中 , 较 多 数据 
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集 使 用 的 人 工 智能 生成 文本 都 是 由 ChatGPT 生成 的 , 不 利于 分 类 器 的 发 展 。 同 时 ， 
不 能 忽略 其 它 大 语言 模型 所 带 来 的 挑战 与 风险 , 我 们 应 该 从 不 同 大 语言 模型 中 收 
集 数 据 , 构建 具有 多 样 性 的 数据 集 , 使 得 分 类 器 可 以 识别 多 数 大 语言 模型 生成 的 
文本 ， 并 且 能 够 抵抗 不 同 语言 模型 生成 文本 的 攻击 。 

3. 2 针对 分 类 器 设计 的 讨论 

没有 哪 一 种 分 类 器 是 万 能 的 , 我 们 所 讨论 的 局 限 性 问题 是 整体 分 类 器 所 面临 
的 困境 。 

多 领域 的 识别 任务 : 跨 领 域 使 用 某 种 模型 是 整个 NLP 领域 的 重大 难题 , 不 同 
领域 的 语言 和 术语 使 用 方式 可 能 差异 很 大 , 模型 需要 适应 并 理解 多 种 不 同 领域 的 
语言 表达 。 例 如 , 医学 领域 的 术语 和 金融 领域 的 术语 可 能 完全 不 同 , 导致 GLTR™、 
DetectLLM”、 微 调 Roberta” 等 方法 在 面 对 跨 领域 识别 任务 时 ， 性 能 出 现 了 显 
著 下 降 ， 这 也 凸显 了 开发 跨 领 域 分 类 器 的 必要 性 。 实 际 上 ， 路 领域 的 分 类 器 需要 
大 量 且 多 样 化 的 数据 来 学 习 各 个 领域 的 语言 特征 ,然而 ,获取 特定 领域 的 大 规模 
数据 并 非 易 事 ， 有 时 候 某 些 领域 数据 可 能 非常 有 限 。 因 此 ， 可 以 通过 迁移 学 习 、 
领域 自 适应 、 多 任务 学 习 以 及 对 模型 架构 的 改进 , 来 促进 分 类 器 在 多 领域 进行 识 
别 任 务 的 效率 提升 。 

跨 语 言 的 识别 任务 : 不 同 语言 之 间 存 在 巨大 的 差异 ， 包 括 语法 、 词 汇 、 句 法 
结构 等 。 足 语言 模型 需要 能 够 理解 和 处 理 这 些 差异 ， 并 且 有 具备 足够 的 灵活 性 。 
Yuxia ”与 Chaka 5 研究 发 现 ， 不 同 语言 可 能 存在 一 定 的 迁移 能 力 ， 但 是 在 多 种 
语言 的 分 类 器 中 发 现 , 在 识别 非 训练 数据 语种 的 内 容 时 ,准确 率 出 现 了 下 降 。 最 
新 的 研究 中 也 发 现 了 这 个 问题 ”, 面 对 非 英语 母语 者 撰写 的 文本 时 , 最 先进 的 分 
类 器 的 性 能 出 现 了 明显 的 下 降 。 通过 使 用 有 效 的 提示 策略 可 以 缓解 这 种 问题 , 但 
它 也 会 增加 生成 文本 逃 过 分 类 器 的 概率 。 这 也 表明 分 类 器 可 能 会 在 检测 过 程 中 出 
现 歧视 问题 ， 当 数据 集中 有 非 标 准 语言 的 文本 时 ， 分 类 器 会 惩罚 此 类 文本 ， 导 致 
分 类 器 性 能 下 降 ” 。 

数据 歧义 问题 : 大 语言 模型 在 生成 文本 时 ， 可 能 缺乏 足够 的 上 下 文 ， 使 得 模 
型 产生 不 完整 或 不 准确 的 信息 。 这 可 能 导致 歧义 的 产生 ， 因 为 模型 无 法 正确 理解 
或 完整 把 握 输 入 的 含义 。 如 果 无 法 分 辨 此 类 信息 是 人 类 生成 的 还 是 机 器 生成 的 ， 
并 且 将 AIGC 当 作 模 型 的 预 训练 数据 ， 就 会 导致 恶性 循环 ， 致 使 分 类 器 识别 效率 
大 幅度 下 降 ， 破 坏 了 分 类 器 最 初 的 任务 前 提 。 

3.3 针对 评价 指标 的 讨论 

评价 指标 是 评估 模型 性 能 不 可 或 缺 的 部 分 , 我 们 讨论 了 一 般 性 评价 指标 和 新 
型 评价 指标 的 优 缺 点 ， 并 创建 了 AIC 分 类 器 评估 框架 ， 进一步 启发 相关 分 类 器 
的 研究 ， 为 后 续 不 同 背 景 下 的 研究 提供 合适 的 指标 。 

3.3.1 一 般 性 评价 指标 

准确 率 (Accuracy) 适用 于 数据 类 别 分 布 均衡 的 数据 集 ， 能够 直观 地 观察 到 
模型 整体 预测 正确 的 比例 。 但 是 ， 对 于 数据 类 型 分 布 不 均衡 的 数据 集 ， 其 效果 较 
差 。 平衡 的 准确 率 和 不 平衡 的 准确 率 在 不 同 背 景 下 得 到 了 应 用 ”用 来 评价 不 同 
分 类 器 在 不 同 背 景 下 的 能 力 强 弱 。 Æ AIC 识别 任务 中 , 数据 集中 AGIC 样本 数量 
应 高 于 人 类 生成 样本 的 数量 ， 同 时 分 类 器 识别 AIGC 的 概率 必须 要 高 于 识别 HGC 
的 概率 。 

精确 率 (Precision) 在 需要 尽量 避免 误 报 的 应 用 背景 中 《〈 如 癌症 检测 ) 是 
一 个 重要 指标 。 当 一 个 样本 不 属于 AIGC， 而 被 分 类 为 AIGC， 这 个 错误 的 结果 会 
降低 用 户 对 模型 的 信任 , 对 识别 任务 造成 较 大 负面 影响 。 当 模型 过 度 关 注 精确 率 


时 ， 可 能 会 牺牲 召回 率 ， 导 致 漏 报 。 

APZ (Recall) 评估 模型 对 真实 AIGC 样本 的 识别 能 力 ， 在 类 别 不 平衡 的 
数据 集中 ，Recall 可 以 更 好 地 反映 模型 在 少数 类 别 上 的 性 能 ， 避 免 过 度 关 注 常 
见 类 别 而 忽略 了 重要 的 少数 类 别 。 在 数据 不 平衡 的 情况 下 ,高 Recall 可 能 是 因 
为 模型 倾向 于 预测 更 多 样本 为 正 例 ， 而 这 些 样本 可 能 是 错误 分 类 的 。 因 此 ， 需 要 
引入 HumanRecll. AIGCRecll. AvgRecll 等 指标 ， 综 合 评估 模型 的 召回 率 。 

3. 3. 2 新 型 评价 指标 

阴性 预测 值 «(Negative Predictive Value, NPV) 是 统计 和 诊断 测试 中 阴性 
结果 中 实际 为 阴性 结果 的 比例 。 在 这 种 情况 下 , 它 表 示 在 模型 预测 为 HGC 的 情况 
下 ， 真 正 的 人 类 生成 样本 有 多 少 被 正确 预测 出 来 。 当 数据 集中 的 类 别 不 平衡 时 ， 


NPV 可 以 提供 更 全 面 的 模型 性 能 评估 ， 因 为 它们 关注 了 特定 预测 类 别 的 准确 性 。 
其 公式 为 : 
确 分 类 的 HGC 的 数量 
ie 正确 分 类 的 的 数量 TN (8) 


”所 有 分 类 为 HGC 的 数量 ”TN + FN 

真 阴性 率 (True Negative Rate ,TNR): 有 时 也 被 称 为 特异 性 (Specificity)， 
是 用 于 评估 模型 在 所 有 实际 的 人 类 生成 样本 中 , 成功 识 别 出 的 人 类 生成 样本 所 占 
f EIS ARDT: 


“正确 分 类 的 HGC 的 数量 TN 
假 阳 性 率 (False Positive Rate , FPR) : 用 于 衡量 人 类 生成 的 样本 被 错 
误 地 分 类 为 人 工 智能 生成 的 样本 比例 。 公 式 如 下 : 
“错误 分 类 成 AIGC 的 数量 FP 
所 有 HGC 的 数量 FP + TP 
假 阴 性 率 (False Negative Rate , FNR) : 用 于 衡量 实际 是 人 工 智 能 生成 
的 样本 但 被 错误 地 分 类 为 人 类 生成 的 样本 比例 。 公 式 如 下 : 
错误 分 类 的 HGC 的 数量 。 ”FN 
”所 有 AIGC 数 量  FN+TP 


AUROC (Area Under the Receiver Operating Characteristic Curve) : 
由 Receiver Operating Characteristic 曲线 推导 而 来 ， 用 于 衡量 模型 在 不 同 立 
值 下 的 性 能 表现 。 公 式 如 下 : 


1 TP FP 
o TP + FP FP X TUN 


3.3.3 针对 AIGC 分 类 器 评估 框架 的 讨论 

为 准确 评估 分 类 器 在 识别 AIGC 方面 的 能 力 ， 完 善 分 类 器 的 评估 指标 ， 我 们 
构建 了 AIGC 分 类 器 评估 框架 。 从 分 类 器 的 应 用 需求 出 发 ， 分 析 了 分 类 器 与 各 类 
AIGC 之 间 的 内 在 关联 ， 构 建 了 系统 性 评估 AIGC 分 类 器 的 框架 思路 。 目 前 针对 分 
类 器 识别 AIGC 的 能 力 评估 只 有 一 些 孤 立 的 评价 指标 ， 学 界 和 业界 还 没有 形成 成 
熟 的 分 类 器 评估 框架 。 与 此 相反 ， 在 教育 学 中 ， 己 经 有 成 熟 的 评估 框架 来 指导 教 
学 任务 ， 布 鲁 姆 教学 分 类 法 (Bloom s Taxonomy) 是 其 中 较为 广泛 使 用 的 框架 之 


TNR (9) 


FPR (10) 


FNR (11) 


AUROC = (12) 


—P", DRE FEA TUSSI, FR KE AS ET EEA]: 
记忆 (Remember) 、 理 解 (Understanding) . MH (Apply) 、 分 析 (Analyze), 
评价 (Evaluate) 、 创 造 (Create) ， 如 图 2 Pra. 


2 布 鲁 姆 教学 分 类 法 (Bloom s Taxonomy) 框架 
Fig. 2 Bloom 's Taxonomy Framework 
受到 布 鲁 姆 教学 分 类 法 框架 和 ATGC 分 类 器 现实 应 用 情况 的 启发 ， 我 们 提出 
AIGC 分 类 器 评估 框架 来 综合 评估 分 类 器 的 能 力 水 平 。 该 框架 将 AIGC 分 类 器 划分 
为 四 个 能 力 层级 ， 如 图 3 Aras, 分别 是 学 习 、 理 解 、 识 别 、 伦 理 四 个 层次 。 学 习 
层次 : 评估 分 类 器 能 否 准 确 理解 和 记忆 输入 的 内 容 。 理 解 层次 : 评估 分 类 器 对 
HGC 和 AIGC 的 特征 理解 ， 这 包括 对 不 同 来 源 的 生成 文本 中 上 下 文 、 语 境 和 语义 


的 理解 。 识 别 : 评估 分 类 器 能 否 正 确 识别 HGC 与 AIGC， 同 时 评估 在 面 对 抵 抗 攻 
击 时 , 分 类 器 的 稳定 性 是 否 受 影响 。 伦理 : 评估 分 类 器 在 面临 伦理 和 道德 问题 时 ， 


会 


3 AIGC 分 类 评估 框架 
Fig. 3 AIGC Classification Evaluation Framework 
是 否 会 因为 语言 、 种 族 偏 见 而 引起 分 类 器 的 性 能 下 降 。 在 评估 过 程 中 ,也 要 考虑 
到 数据 的 质量 、 模 型 的 可 解释 性 以 及 对 潜在 偏见 和 不 公平 性 的 审查 , 这 些 也 是 评 
fei AIGC 分 类 器 非常 重要 的 方面 。 


A 
[= \ 


3.4 未 来 热点 方向 

AIGC 识别 领域 的 相关 研究 已 经 取得 了 显著 进展 ， 但 仍 有 一 些 问 题 存 在 。 本 
小 节 探 讨 了 未 来 研究 的 潜在 方向 ， 旨 在 推动 构建 更 高 效 和 实用 的 分 类 器 。 
3. 4. 1 重视 类 别 不 平衡 的 影响 

目前 为 止 ， 探 究 类 别 不 平衡 的 研究 相对 较 少 。 在 现实 生活 中 ，AIGC 可 能 是 
少数 类 ,分 类 器 会 受到 严重 的 类 别 不 平衡 影响 ， 导 致 性 能 不 稳定 或 又 降 ”。 使 用 
单 分 类 方法 可 能 是 解决 ATGC 识别 问题 的 好 方法 ”。 针对 AIGC 识别 任务 , 传统 的 
监督 学 习 面 临 着 数据 不 平衡 的 挑战 , 可 能 将 其 误 分 类 为 正常 类 别 。 单 分 类 方法 专 
注 于 仅 有 一 个 类 别 的 数据 ， 并 将 其 视 为 “正常 ”类 别 ， 而 无 需 明 确 地 定义 其 他 类 
别 。 通 过 建 模 正常 类 别 的 分 布 和 特征 , 单 分 类 器 能 够 更 好 地 识别 不 同 于 训练 集 的 
异常 样本 。 对 于 AIGC 的 识别 问题 ， 单 分 类 方法 可 以 更 好 地 适应 于 少数 类 别 ， 从 
而 提高 模型 的 泛 化 能 力 和 重 棒 性 ”。 
3. 4. 2 提高 零 样 本 检测 方法 的 性 能 

零 样 本 检测 方法 不 仅 稳定 性 高 ”， 还 可 提供 具有 可 解释 性 的 结果 "”。AIGC 
和 人 类 生成 文本 之 间 有 着 明显 的 差异 ,GPT-4 生成 内 容 中 的 高 频 搭配 比 HGC 更 多 ， 
同时 它 也 惯用 总 结语 句 ， 有 较 强 逻辑 性 ””。 这 促进 了 AIGC 识别 的 研究 ， 我 们 应 
该 深入 探究 AIGC 与 HGC 之 间 的 细微 差别 , 从 低 维 特征 到 高 维特 征 聚 焦 各 自 特 点 。 
这 样 可 以 为 分 类 器 的 构造 提供 准确 的 度量 标准 , 为 模型 的 决策 过 程 提 供 可 解释 性 。 
3. 4. 3 构建 能 够 抵抗 对 抗 性 攻击 的 分 类 器 

对 抗 性 攻击 是 阻碍 当前 分 类 器 推广 使 用 的 主要 阻力 ”， 也 是 导致 当前 AIGC 
分 类 器 持续 不 可 靠 性 的 一 个 重要 因素 。 它 通过 对 文本 截断 、 打 乱 、 单 词 交 换 和 拼 
写 错误 对 文本 特征 进行 对 抗 攻击 , 这 对 微调 分 类 器 ”、 水 印 技术 “、DetectGPT™ 
构成 了 有 效 的 攻击 ， 检 测 器 性 能 分 别 降低 了 18%、10% 和 25% 以 上 。 己 有 研究 解决 
了 特定 攻击 的 鲁 棒 性 问题 ， 但 是 却 忽略 了 其 它 类 型 的 攻击 所 带 来 的 潜在 影响 ”” 。 
因此 ， 必 须 开 发 和 验证 各 种 类 型 的 攻击 模式 ， 检 测 现 有 分 类 器 存在 的 漏洞 。 我 们 
建议 通过 上 文 提 到 的 AIGC 分 类 评估 框架 ， 对 现 有 分 类 器 进行 评估 ， 最 终 构建 出 
能 够 抵抗 多 种 对 抗 性 攻击 的 分 类 器 。 
3.4.4 检 测 方法 要 具有 公平 性 和 可 解释 性 

使 用 黑 盒 检测 方法 进行 AIGC 识别 任务 ， 防 止 大 语言 模型 的 滥用 ， 检 测 结果 
可 能 会 给 个 人 带 来 负面 影响 (学 位 论文 造假 、 学 术 不 端 等 ) 。AIGC 检测 系统 必 
须要 保持 适当 的 公平 、 透 明和 可 解释 性 ， 要 重视 有 关 AIGC 检测 带 来 的 潜在 危害 
的 技术 或 社会 认 知 影响 研究 ， 这 对 确保 检测 系统 的 伦理 性 很 重要 。 

可 信任 的 人 工 智 能 政策 要 求 决策 系统 提供 人 类 可 以 理解 的 解释 , 并 且 反映 在 
众多 新 兴 技 术 监 管 指南 和 标准 中 ”“。 有 学 者 利用 随机 森林 模型 和 XGBoost 来 检 
测 GPT-2 生成 的 虚假 评论 , 并 在 分 类 器 中 加 入 了 可 解释 性 模块 (Shapley Additive 
commentary，SHAP)“"”。 未 来 应 聚焦 于 识别 效果 好 并 且 具 有 可 解释 性 的 识别 方 
法 研究 。 
3. 4. 5 防止 检测 过 程 中 的 歧视 问题 

在 实际 检测 过 程 中 ， 某 些 群 体 (如 非 母语 人 士 ) 生成 的 文本 更 有 可 能 被 机 器 
识别 算法 标记 为 AIGC， 这 可 能 是 由 于 他 们 的 写作 特征 或 使 用 翻译 工具 导致 的 ”。 
为 避免 分 类 器 产生 歧视 问题 ， 首 先 要 确保 数据 集中 各 个 类 别 〈 不 同 语言 或 文化 ) 
的 样本 分 布 均衡 ， 其 次 要 使 用 公平 性 指标 来 评估 分 类 器 的 性 能 , 包括 对 不 同 语言 
和 文化 的 分 类 的 准确 率 。 同 时 ， 还 要 监测 分 类 器 在 不 同类 别 数 据 上 的 表现 差异 ， 
以 及 是 否 存在 歧视 的 情况 。 未 来 如 何在 防止 歧视 的 同时 提高 识别 效率 , 是 非常 重 


要 并 且 有 具有 挑战 性 的 问题 。 
3. 4. 6 使 用 多 智能 系统 辅助 AIGC 识别 任务 
有 研究 证 明了 多 智能 系统 在 提高 AIGC 识别 性 能 方面 的 有 效 性 ， 通 过 促进 智 
能 主体 之 间 的 协作 和 知识 交换 ， 利 用 多 智能 系统 可 以 增强 大 语言 模型 的 性 能 "” 。 
这 种 模式 反映 了 人 类 的 集体 决策 ，Uchendu A 也 证 明了 人 类 的 集体 决策 在 改进 
AIGC 识别 任务 方面 的 能 力 "。 因 此 , 通过 多 智能 系统 辅助 AIGC 识别 非常 具有 前 
景 , 多 智能 辅助 系统 可 以 利用 智能 体 之 间 的 集体 商议 来 控制 大 语言 模型 生成 内 容 
的 质量 ,也 可 以 通过 一 种 共识 驱动 的 方式 评估 多 个 分 类 器 的 输出 结果 ， 从 而 产生 
更 令 人 信服 的 结果 。 
4. 结论 与 未 来 工作 /Conclusion and Future Work 

随 着 大 语言 模型 技术 的 飞速 发 展 ，AIGC 在 日 常生 活 中 无 处 不 在 。AIGC 的 小 
用 导致 了 虚假 评论 、 学 术 不 端 等 问题 。 在 此 背景 下 ， 区 分 文本 是 人 类 生成 还 是 人 
工 智能 生成 具有 重要 意义 。 为 了 更 好 地 防止 AIGC 滥用 ， 减 少 虚假 消息 、 学 术 不 
端 、 欺骗 评论 等 问题 的 产生 ， 本 研究 介绍 了 AIGC 分 类 器 的 任务 ， 指 出 了 分 类 器 
的 发 展 是 时 代 的 必然 要 求 。 为 了 设计 出 高 效 的 分 类 器 ,对 当前 主流 的 数据 集 进 行 
了 介绍 ， 指 出 了 当前 数据 集 存 在 的 局 限 性 ， 并 且 探索 了 未 来 可 能 作为 AIGC 识别 
任务 的 潜在 数据 集 。 此 外 ， 还 阐明 了 当前 识别 AIGC 的 两 种 主流 方式 ， 白 盒 检测 
和 黑 盒 检测 ， 并 且 对 分 类 器 局 限 性 进行 了 探讨 ， 包 括 多 领域 的 识别 任务 、 跨 语言 
的 识别 任务 、 数 据 歧 义 问 题 等 本 文 工 作 为 为 研究 人 员 提 供 了 清晰 和 全 面 的 介绍 ， 
也 希望 能 够 为 未 来 自然 语言 处 理 技术 赋 能 AIGC 识别 任务 激发 了 新 的 思路 ， 促 进 
更 加 高 效 的 分 类 器 的 发 展 。 

当然 ，AIGC 识别 领域 存在 着 大 量 的 开放 问题 ， 比 如 ， 要 建立 全 面 的 、 多 领 
域 、 多 语言 、 先 进 的 数据 集 。 在 此 基础 上 , 还 要 探索 更 先进 的 自然 语言 处 理 模型 ， 
通过 对 抗 性 攻击 不 断 提 高 分 类 器 的 效率 和 重 棒 性 ; 同时 也 要 重视 识别 过 程 中 的 公 
平 性 和 可 解释 性 问题 ， 减 少 识别 过 程 中 的 歧视 问题 
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Abstract: [Purpose/Significance] With the rapid ascent of large language models, 
AIGC have become ubiquitous in our daily lives. In order to mitigate potential misuse 
of AIGC, and to address issues such as the proliferation of false information, 
academic misconduct, and deceptive commentary, it is imperative to consolidate and 
forecast advancements in natural language processing techniques aimed at 
empowering AIGC discernment. [ Method/Process ] Firstly, it is essential to clarify 
that AIGC recognition constitutes a binary classification problem, with the aim of 
discerning whether a given piece of content is generated by artificial intelligence. 
Subsequently, employing a systematic review methodology, we have delineated the 
principal research outcomes in the domain of AIGC recognition. [ Result/Conclusion ] 
The research identifies the critical significance of comprehensive and high-quality 
datasets in constructing classifiers for AIGC recognition. Simultaneously, it explores 
the limitations and developmental objectives of currently popular datasets, as well as 
potential datasets. Additionally, the paper analyzes paradigms of various classifiers, 
presents challenges across multiple domains such as multi-domain recognition tasks, 
cross-lingual recognition tasks, and data ambiguity issues. Finally, it summarizes the 
prospective development pathways for the future of AIGC recognition. This study 
aims to provide relevant researchers with a clear introduction and constructive 
suggestions for constructing more stable and efficient classifiers. 
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